在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2019年6月21-23日,北京鼓楼推出《宏基因组分析》专题培训第四期,为大家提供一条走进生信大门的捷径、为同行提供一个宏基因组分析学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+再集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据。
关于学习生物信息学分析的重要性,请阅读《生物信息9天速成班—成为团队中不可或缺的人》。生信分析离不开程序写作,这部分没想象的难,只要跟着我们操作下来,就可以理解,具体见《生物信息中的程序学习心得》。
课程简介
请详细阅读课程简介,如果以下内容您全精通,欢迎申请讲师或助教。
宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。成立两年,分享专业技术原创文章700+篇,关注人数40,000+,累计阅读量6,000,000+。
为满足广大读者进一步学习的需求,现联合《生信宝典》组织宏基因组学专题培训课程,进一步学习和交流宏基因组学分析技术,手把手带您快速入门、节约宝贵的时间,助力科研成果早日产出。
本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的都是可以学会并自己实现的分析)。从Linux和R基础、宏基因组Linux服务器分析平台搭建、Windows常用统计分析软件、数据分析图表解读和实战、宏基因组有参(Reference-based适合人类、动物肠道等)和无参(De novo适合植物、环境样本等)标准分析流程、Binning(挖掘单菌基因组)、统计分析以及各类高级分析(多基因连接进化树、网络图绘制和美化、网络属性比较、机器学习等),和CNS级图片修改排版。3天时间,老司机带您完成自学需要3个月甚至是3年的崎岖之路,助力您真正实现宏基因组分析、并根据自己课题的背景优化分析方案。
课程大纲
每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。
编号 | 主题 | 简介 |
---|---|---|
11 | Linux基础 | 简介、远程登陆、文件传输、常用命令 |
12 | Linux软件安装 | Conda安装与配置,宏基因组相关软件安装和数据库下载 |
13 | Win软件安装 | git、R、Rstudio、R包、STAMP、AI等 |
14 | 图表解读 | 常用分析图表在文章中意义和使用场景 |
15 | R基础 | 发展史、生物学中应用、ggplot2绘图 |
16 | 可视化 | 16种图表的数据整理和在线绘制 |
21 | 宏基因组简介 | 发展史、常用技术适用范围、分析思路 |
22 | 宏基因组有参质控 | FastQC、Trimmomatic、 MultiQC]()、KneadData质控、parallel并行计算 |
23 | 物种和功能组成 | MetaPhlAn2物种组成、HUMAnN2功能组成、功能关联驱动物种 |
24 | 物种和功能差异比较和可视化 | GraPhlAn、LEfSe、STAMP、R语言统计 |
25 | 发表前准备 | 图片排版、数据释放、代码整理(可选) |
26 | 网络绘制 | 基础、igraph、Gephi |
31 | 物种注释和可视化 | Kraken、Kraken2、GraPhlAn、Krona、microbiomeViz、metacoder |
32 | 拼接、基因注释和定量 | MEGAHIT、metaSPAdes、QUAST、Prokka、cd-hit、Salmon |
33 | 基因功能注释 | KEEG、COG/EggNOG、CAZy/dbcan2、ARDB/Resfams/CARD、Uniref、VFDB、TCDB |
34 | 分箱Binning | 理论、MetaWRAP、VizBin |
35 | 细菌基因组进化 | Bins提取保守基因、多基因进化树、 一文读懂进化树 Evolview基础 进阶 iTOL美化 进阶 |
36 | 总结串讲 | 宏基因组分析套路回顾和总结 |
37 | 考试50题 | 自评学习效果、知识点回顾 |
41 | 答疑-线上 | 答疑、考试内容串讲 |
教程内容简介如下:
一、分析平台搭建
“工欲善其事必先利其器”,没有自己的分析平台,想分析大数据,那怎么能行。宏基因组数据量极大,前期原始下机的大数据想在自己本本上处理还是有难度的。好在现阶段一般的高校、科研院所、课题组都有自己的服务器,即使没有服务器,也可以租用国内的阿里云、腾讯云等服务。现在分析条件拥有了,如何把服务器变成宏基因组分析的利器呢,这是一个非常复杂的专业问题,在这里你马上可以学到!
图1. 宏基因组分析流程的搭建——系统、安装方法和主要软件
服务器推荐使用Ubuntu系统。最低配置32G内存、8核;推荐256G内存,24线程起;配置越高,分析更快更流畅。
没有软件的计算机只是一堆废铁,没有宏基因组分析系统的服务器也和你的数据分析没有半毛钱关系。想要搭建整套的宏基因组分析流程,网上的资源即零散、又稀少。易生信团队将分享多年经验摸索优秀软件和布置技巧,并分享全部源代码,让你在主流Linux服务器系统(Ubuntu 16/18.04,CentOS7等主流发行版)上快速布置宏基因组分析流程依赖的几十款常用软件、几百个依赖的R和Python包,轻松拥有专业分析平台。
图2. 易生信首创基于Win10优化的数据统计分析和可视化流程,笔记本秒变大数据分析平台
推荐使用Windows10系统,8G内存分析更快更流畅。
高通量测序所谓的大数据,都是在原始数据和分析过程中体积大,但结果不大。通常宏基因组分析会获得样品物种组成、功能组成表,这些表格是下游分析、高级分析以及个性分析的起点,绝大部分工作在我们的笔记本上是可以搞定的,只是很多人并不知道如何入手。
其实你的个人电脑就是数据表(丰度矩阵)统计分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现扩增子、宏基因组领域统计、可视化的绝大多数分析,第三节课带你轻松在自己的本本上搭建数据表统计分析与可视化平台,基于目前最主流的Win10进行优化和测试,让笔记本秒变数据分析可视化平台。
我们也会带大家在Linux上配置整个分析可视化平台 (Mac跟Linux类似,无做区别对待,但部分软件可能安装方式不同,未做深入测试,不建议参加培训时使用)。
二、生信基础
有了生信分析平台,如何灵活运用还是要学点独门绝学的。21世纪最重要的是人才,人才最好掌握三门语言,将让你人生立于不败之地,在任何团队中都是不可或缺的人才。这三门语言就是中文、英文和计算机语言。中文每天都在用在学,英文对于博士也至少接触了10年以上并能应用于阅读和写作文献,而编程语言大家大学阶段都学过Visual Basic、Visual Foxpro、或C语言,但能在工作中应用的绝对凤毛麟角。更何况这些语言在生命科学领域是非常低效的,不提倡学习。
生信中最常用的三类语言是Shell + R + Python/Perl,前两门是基础,保证你完成项目分析。我们在课上将同时讲解生物学家必要掌握的Shell和R语言基础知识,保证你高效、稳定的使用宏基因分析平台、保证大数据分析和后期可视化至发表阶段所需的技能。我们在文后提供了学习视频供提前预习。
图3. Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本
当你利用几个小时,走进大数据分析和可视化的大门后,你将发现一个全新的世界。很多人会感觉相见恨晚,爱上分析,从此走向人生的快车道。即使你对编程不感兴趣,这里面用到的理念也定能让你受益终身,在今后相关分析中事半功倍,比别人更胜一筹。再说现在连小学生都学Python了,再不会,孩子都带不好了。
三、图表解读和绘制专题
针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措的情况, 我们推出过如下两个系列,共16篇原创文章,对8种图型和R语言绘图进行讲解。
但这些只是入门,在培训时,我们将结合发表的高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。
针对使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。
图4. 16种常用图形的表达的意义、使用场景和绘制。可使用我们的在线绘图工具
为了让各种统计图片实现出版级的组图,特开设了一节Adobe Illustrator修图排版课,讲述基本使用技巧,轻松掌握精髓,让你文章图版档次向CNS看齐,轻松成为实验室的修图和拼图达人。
图5. AI排版本子图为CNS出版级组图示例(Science, 2016封面文章)
四、宏基因组学概述
在第一天全面打造科研基础后之,我们将开始宏基因组大数据分析之旅。
作为专业基础知识,我们将学习以下内容。
背景:国际微生物组、中国微生物组计划
研究对象:人、动物、植物、环境
研究方法:培养组学、扩增子、宏基因组、宏转录组、宏蛋白组、宏代谢组、宏基因组关联分析、宏表观组……
宏基因组学的研究热点:培养组、肠菌与疾病、宏基因组关联分析(MWAS)、多组学联合分析……
测序发展史与原理
样品制备、实验重复和测序数据量的选择
宏基因组分析SCI文章的常用套路
宏基因组与扩增子优缺点比较
原始数据评估、组装结果好坏的判断
图6. 宏基因组学常用手段:扩增子、宏基因组、宏转录组所能回答的科学问题
五、宏基因组学有参分析流程
刚上手每个样品几G到几十G的数据,如果无从下手,还是建议立马来一套有参分析,快速获得样品的物种组成和功能组成。有参(Reference-based)方法,顾名思义,是直接使用现在的物种、功能基因注释数据库,数据只通过质控、比对而快速获得相应物种、功能基因的相对丰度矩阵。在本领域第一分析大牛Rob Knight的最新综述中对此方法也很推崇,《Nature综述 | Rob Knight等手把手教你分析菌群数据(全文翻译1.8万字)》。
此法优势明显,步骤少,速度快,省时省力,适合人类肠道、模式生物、海洋等有较好参考数据库的领域。缺点是无法识别未被报导物种的功能基因,对于植物、土壤、极端环境样本分析时,会损失很多信息。
图7. 宏基因组分析基本思路——有参分析流程。主要通过MetaPhlAn2基于己报导的所有微生物基因组获得物种组成,基于UniRef、EggNOG、KEGG等蛋白数据库确定功能组成。16S扩增子数据本身只包含物种组成,可通过PICRUSt获得KEGG/COG的功能组成。
主要知识点:
1. 实验设计的编写原则
2. KneadData流程快速质控和去宿主流程
3. 物种组成定量MetaPhlAn2
4.功能组成定量HUMAnN2
六、宏基因组无参分析流程
宏基因组无参分析,主要有两个目的:一是获得未被注释的物种和基因表达;二是通过Binning挖掘新物种的基因组。看样子很美好,但实际操作起来对计算量要求非常大。分析过程中比有参多了组装、基因预测、非冗余基因集构建和基因注释等步骤。
图8. 宏基因组无参分析流程。
关键步骤及使用软件:
构建非冗余基因集:CD-HIT
基因丰度估计:Salmon等方法快速基因丰度定量,后续可进行PCA、PCoA、CCA等整体组间差异比较;也可进一步使用edgeR、MetaStat、LEfSe进行组间差异基因分析;
物种注释:获得非冗余基因集物种注释信息,也可在reads层面使用Kraken2进行直接物种注释,结合第6步丰度值可进行组间差异物种分析;
基因功能分类注释:代谢通路(KEGG),同源基因簇(eggNOG)注释,结合6中丰度进行组间差异功能比较;
图9. 宏转录组分析流程。宏转录组较宏基因组多一步去除rRNA基因序列的步骤。此方法缺点是无法获得真实的物种组成,但它体现的是在特定时空条件下有活性的物种和功能基因表达水平组成。
七、高级分析与可视化实战
R语言统计绘图与可重复计算
宏基因组中鉴定单菌(分箱bin):MetaWRAP
Bin结果评估及可视化:CheckM, VizBin
宏基因组可视化:Circos
在线流程:MEGAN、MG-RAST、EBI-metagenome
图10. 宏基因组基因组成、丰度、覆盖度等信息可视化
图11. 基于多基因连接的进化树构建和美化(Levy-2018-NatureGenetics)
学习完本课程,你能得到什么?
深彻理解生物测序数据的基本思想
0 Comments